It is well believed that the higher uncertainty in a word of the caption, the more inter-correlated context information is required to determine it. However, current image captioning methods usually consider the generation of all words in a sentence sequentially and equally. In this paper, we propose an uncertainty-aware image captioning framework, which parallelly and iteratively operates insertion of discontinuous candidate words between existing words from easy to difficult until converged. We hypothesize that high-uncertainty words in a sentence need more prior information to make a correct decision and should be produced at a later stage. The resulting non-autoregressive hierarchy makes the caption generation explainable and intuitive. Specifically, we utilize an image-conditioned bag-of-word model to measure the word uncertainty and apply a dynamic programming algorithm to construct the training pairs. During inference, we devise an uncertainty-adaptive parallel beam search technique that yields an empirically logarithmic time complexity. Extensive experiments on the MS COCO benchmark reveal that our approach outperforms the strong baseline and related methods on both captioning quality as well as decoding speed.
translated by 谷歌翻译
Recently, vector quantized autoregressive (VQ-AR) models have shown remarkable results in text-to-image synthesis by equally predicting discrete image tokens from the top left to bottom right in the latent space. Although the simple generative process surprisingly works well, is this the best way to generate the image? For instance, human creation is more inclined to the outline-to-fine of an image, while VQ-AR models themselves do not consider any relative importance of each component. In this paper, we present a progressive denoising model for high-fidelity text-to-image image generation. The proposed method takes effect by creating new image tokens from coarse to fine based on the existing context in a parallel manner and this procedure is recursively applied until an image sequence is completed. The resulting coarse-to-fine hierarchy makes the image generation process intuitive and interpretable. Extensive experiments demonstrate that the progressive model produces significantly better results when compared with the previous VQ-AR method in FID score across a wide variety of categories and aspects. Moreover, the text-to-image generation time of traditional AR increases linearly with the output image resolution and hence is quite time-consuming even for normal-size images. In contrast, our approach allows achieving a better trade-off between generation quality and speed.
translated by 谷歌翻译
深层神经网络(DNN)容易受到精心设计的扰动的影响,无论是依赖还是独立于图像。后一个称为通用对抗扰动(UAP),对于模型鲁棒性分析非常有吸引力,因为其对输入的独立性揭示了模型的内在特征。相对而言,另一个有趣的观察结果是神经塌陷(NC),这意味着特征变异性可能在训练的末端阶段崩溃。由此激励,我们建议通过攻击NC现象发生的层来生成UAP。由于NC,拟议的攻击可以收集其周围的所有自然图像特征,因此称为功能收集UAP(FG-UAP)。我们评估了我们提出的算法对丰富实验的有效性,包括未靶向和有针对性的通用攻击,有限的数据集中的攻击以及基于转移的黑盒攻击,包括视觉变形金刚,据信更强大的视觉变压器。此外,我们通过分析标签和提取的对抗性示例的标签和提取特征来研究FG-UAP,发现在模型损坏后,崩溃现象变得更强大。接受纸张时,该代码将发布。
translated by 谷歌翻译
深度学习(DL)的快速增长和部署目睹了新兴的隐私和安全问题。为了减轻这些问题,已经讨论了安全的多方计算(MPC),以实现隐私保护DL计算。在实践中,它们通常是在很高的计算和沟通开销中,并有可能禁止其在大规模系统中的受欢迎程度。两种正交研究趋势吸引了人们对安全深度学习的能源效率的巨大兴趣,即MPC比较方案的高架降低和硬件加速度。但是,他们要么达到较低的减少比率,因此由于计算和通信节省有限而遭受了高潜伏期,或者是渴望的,因为现有的作品主要集中在CPU和GPU等一般计算平台上。在这项工作中,作为第一次尝试,我们通过将加密构件构建块的硬件延迟整合到DNN损耗功能中,以实现高能量效率,开发了一个系统的polympcnet,以减少MPC比较协议和硬件加速的联合额外降低的系统框架Polympcnet。和安全保证。我们的关键设计原理不是在DNN进行良好训练之后(通过删除或删除某些非物质操作员)训练(通过删除或删除某些非物质操作员)之后检查模型敏感性,而是要准确地执行DNN设计中的假设 - 培训DNN既是DNN都硬件有效且安全,同时逃脱了当地的最小值和鞍点并保持高精度。更具体地说,我们提出了通过多项式激活初始化方法直接提出的加密硬件友好的可训练多项式激活功能,以替代昂贵的2P-RELU操作员。我们开发了一个密码硬件调度程序和现场可编程门阵列(FPGA)平台的相应性能模型。
translated by 谷歌翻译
随机傅立叶特征(RFF)方法是内核方法可扩展性的强大而流行的技术。 RFF的理论基础是基于将对称,正定(PD)函数与概率度量相关联的Bochner定理。这种条件自然排除了在实践中具有广泛应用的不对称函数,例如有向图,条件概率和不对称内核。然而,从理论和经验上尚不清楚理解不对称函数(内核)及其通过RFF的可伸缩性尚不清楚。在本文中,我们引入了一种复杂的度量,其真实和虚构部分对应于四个有限的正措施,从而扩大了Bochner定理的应用范围。通过这样做,该框架允许通过一种积极度量来处理经典的对称,PD内核;通过签名措施对称,非阳性的确定内核;并通过复杂的措施通过不对称内核,从而将它们统一为RFF的一般框架,称为Ask-RFF。从统一收敛的角度来看,通过复杂措施通过复杂度量的这种近似方案享有理论保证。在算法实现中,由于总质量的计算而加快内核近似过程,这是昂贵的,我们采用了一种基于子集的快速估计方法,可优化子训练集中的总质量。我们的ask-rffs方法在几个典型的大规模数据集上得到了经验验证,并实现了有希望的内核近似性能,这证明了Ask-RFF的有效性。
translated by 谷歌翻译
深度神经网络(DNNS)的广泛应用要求越来越多的关注对其现实世界的鲁棒性,即DNN是否抵抗黑盒对抗性攻击,其中包括基于得分的查询攻击(SQA)是最威胁性的。由于它们的实用性和有效性:攻击者只需要在模型输出上进行数十个查询即可严重伤害受害者网络。针对SQA的防御需要对用户的服务目的而略有但巧妙的输出变化,这些用户与攻击者共享相同的输出信息。在本文中,我们提出了一种称为统一梯度(UNIG)的现实世界防御,以统一不同数据的梯度,以便攻击者只能探究不同样本相似的较弱的攻击方向。由于这种普遍的攻击扰动的验证与投入特定的扰动相比,Unig通过指示攻击者一个扭曲且信息不足的攻击方向来保护现实世界中的DNN。为了增强Unig在现实世界应用中的实际意义,我们将其实现为Hadamard产品模块,该模块具有计算效率且很容易插入任何模型。根据对5个SQA和4个防御基线的广泛实验,Unig显着改善了现实世界的鲁棒性,而不会伤害CIFAR10和Imagenet上的清洁准确性。例如,Unig在2500 Query Square攻击下保持了77.80%精度的CIFAR-10模型,而最先进的对手训练的模型仅在CIFAR10上具有67.34%的速度。同时,Unig在清洁精度和输出的修改程度上大大超过了所有基准。代码将发布。
translated by 谷歌翻译
Panoptic叙事接地(PNG)是一项新的任务,其目标是通过静止图像的密集叙事标题来分割事物和内容类别的视觉对象。先前的两阶段方法首先提取了通过现成的全盘分割模型提取分割区域的建议,然后进行粗糙的区域短语匹配,以将每个名词短语的候选区域接地。但是,两阶段的管道通常受到第一阶段低质量建议的性能限制,以及由区域特征池的损失以及为事物和东西类别设计的复杂策略引起的空间细节。为了减轻这些缺点,我们提出了一个单阶段的端到端像素匹配网络(PPMN),该网络将每个短语与其相应的像素直接匹配,而不是区域建议,并通过简单组合输出全段段。因此,我们的模型可以从密集注释的像素色素对的监督而不是稀疏的区域短语对中利用足够,更精细的跨模式语义对应关系。此外,我们还提出了与语言兼容的像素聚合(LCPA)模块,以进一步通过多轮修补剂增强短语特征的判别能力,该简化为每个短语选择最兼容的像素以适应相应的视觉上下文。广泛的实验表明,我们的方法在PNG基准测试中实现了新的最新性能,并具有4.0个绝对平均召回率增长。
translated by 谷歌翻译
现有的图像字幕的方法通常从左到右生成句子逐字,并在本地上下文中受到限制,包括给定的图像和历史记录生成的单词。在解码过程中,有许多研究目的是利用全球信息,例如迭代改进。但是,它仍然探讨了如何有效,有效地纳入未来的环境。为了回答这个问题,受到非自动回归图像字幕(NAIC)的启发,可以通过修改后的掩码操作利用两侧关系,我们的目标是将此进步嫁接到常规的自动回归图像字幕(AIC)模型,同时保持推理效率而无需进行推理效率额外的时间成本。具体而言,首先对AIC和NAIC模型结合了共享的视觉编码器,迫使视觉编码器包含足够有效的未来上下文。然后鼓励AIC模型捕获NAIC模型在其不自信的单词上互换的跨层互换的因果动态,该单词遵循教师学生的范式,并通过分配校准训练目标进行了优化。经验证据表明,我们所提出的方法清楚地超过了自动指标和人类评估的最新基线,对MS COCO基准测试。源代码可在以下网址获得:https://github.com/feizc/future-caption。
translated by 谷歌翻译
我们的面部皮肤呈现出细微的色彩变化,称为远程光绘画(RPPG)信号,我们可以从中提取受试者的心率。最近,提出了许多有关RPPG信号提取的深度学习方法和相关数据集。但是,由于耗时血液流过我们的身体和其他因素,标签波(例如BVP信号)在某些数据集中具有实际RPPG信号的不确定延迟,这导致难以训练网络的训练,这些网络直接预测了RPPG波。在本文中,通过分析RPPG信号和标签波的节奏和周期性的共同特征,我们提出了一组包裹这些网络的训练方法,以便在在数据集中频繁地延迟数据的情况下进行训练时可以保持有效的效率。与其他无延迟RPPG提取方法相比,获得更精确和健壮的心率预测结果。
translated by 谷歌翻译
作为一种强大的建模方法,分段线性神经网络(PWLNNS)已在各个领域都被证明是成功的,最近在深度学习中。为了应用PWLNN方法,长期以来一直研究了表示和学习。 1977年,规范表示率先通过增量设计学到了浅层PWLNN的作品,但禁止使用大规模数据的应用。 2010年,纠正的线性单元(RELU)提倡在深度学习中PWLNN的患病率。从那以后,PWLNNS已成功地应用于广泛的任务并实现了有利的表现。在本引物中,我们通过将作品分组为浅网络和深层网络来系统地介绍PWLNNS的方法。首先,不同的PWLNN表示模型是由详细示例构建的。使用PWLNNS,提出了学习数据的学习算法的演变,并且基本理论分析遵循深入的理解。然后,将代表性应用与讨论和前景一起引入。
translated by 谷歌翻译